PyStacked通过Python的Scikit-Lear}实现了堆积的概括(Wolpert,1992),以进行回归和二进制分类。堆叠将多个监督的机器学习者(“基础”或“级别”学习者)结合到一个学习者中。当前支持的基础学习者包括正规化回归,随机森林,梯度增强的树木,支撑矢量机和前馈神经网(多层感知器)。PyStacked也可以用作“常规”机器学习程序,以适合单个基础学习者,因此为Scikit-Learn的机器学习算法提供了易于使用的API。
translated by 谷歌翻译
The findable, accessible, interoperable, and reusable (FAIR) data principles have provided a framework for examining, evaluating, and improving how we share data with the aim of facilitating scientific discovery. Efforts have been made to generalize these principles to research software and other digital products. Artificial intelligence (AI) models -- algorithms that have been trained on data rather than explicitly programmed -- are an important target for this because of the ever-increasing pace with which AI is transforming scientific and engineering domains. In this paper, we propose a practical definition of FAIR principles for AI models and create a FAIR AI project template that promotes adherence to these principles. We demonstrate how to implement these principles using a concrete example from experimental high energy physics: a graph neural network for identifying Higgs bosons decaying to bottom quarks. We study the robustness of these FAIR AI models and their portability across hardware architectures and software frameworks, and report new insights on the interpretability of AI predictions by studying the interplay between FAIR datasets and AI models. Enabled by publishing FAIR AI models, these studies pave the way toward reliable and automated AI-driven scientific discovery.
translated by 谷歌翻译
Many scientific domains gather sufficient labels to train machine algorithms through human-in-the-loop techniques provided by the Zooniverse.org citizen science platform. As the range of projects, task types and data rates increase, acceleration of model training is of paramount concern to focus volunteer effort where most needed. The application of Transfer Learning (TL) between Zooniverse projects holds promise as a solution. However, understanding the effectiveness of TL approaches that pretrain on large-scale generic image sets vs. images with similar characteristics possibly from similar tasks is an open challenge. We apply a generative segmentation model on two Zooniverse project-based data sets: (1) to identify fat droplets in liver cells (FatChecker; FC) and (2) the identification of kelp beds in satellite images (Floating Forests; FF) through transfer learning from the first project. We compare and contrast its performance with a TL model based on the COCO image set, and subsequently with baseline counterparts. We find that both the FC and COCO TL models perform better than the baseline cases when using >75% of the original training sample size. The COCO-based TL model generally performs better than the FC-based one, likely due to its generalized features. Our investigations provide important insights into usage of TL approaches on multi-domain data hosted across different Zooniverse projects, enabling future projects to accelerate task completion.
translated by 谷歌翻译
可穿戴机器人设备有可能协助和保护用户。为了设计智能头盔,本文研究了音频和视觉警告的有效性,以帮助参与者振作起来。一项用户研究检查了运行时对用户应用的不同警告和影响。从不同的方向应用了缩放到用户质量的扰动力,并测量用户位移以表征警告的有效性。这是使用适应于运动循环期间精确矩,向前,向后,右或左侧扰动力来向前,向后,右或左侧扰动力进行的踏板活动的活动风洞来完成的。本文介绍了该系统的概述,并展示了步态过程中精确发出一致警告和扰动的能力。用户研究结果突出了视觉和音频警告的有效性,以帮助用户振作起来,从而导致指南,从而为未来的人类机器人警告系统提供信息。
translated by 谷歌翻译
鉴于HEP研究的核心,数据科学(DS)和机器学习(ML)在高能量物理学(HEP)中的作用增长良好和相关。此外,利用物理数据固有的对称性激发了物理信息的ML作为计算机科学研究的充满活力的子场。 HEP研究人员从广泛使用的材料中受益匪浅,可用于教育,培训和劳动力开发。他们还为这些材料做出了贡献,并为DS/ML相关的字段提供软件。物理部门越来越多地在DS,ML和物理学的交集上提供课程,通常使用HEP研究人员开发的课程,并涉及HEP中使用的开放软件和数据。在这份白皮书中,我们探讨了HEP研究与DS/ML教育之间的协同作用,讨论了此交叉路口的机会和挑战,并提出了将是互惠互利的社区活动。
translated by 谷歌翻译
大量矢量场数据集在多光谱光学传感器和雷达传感器以及现代多模式MRI数据中很常见,以及许多其他应用领域。在本文中,我们开发了一种新型的随机功能分析方法,用于基于具有多波段矢量磁场数据的域名域名随机行为的协方差结构来检测异常。最佳矢量场karhunen-loeve(KL)扩展应用于此类随机字段数据。一系列多级正交功能子空间是根据域的几何形状构建的,该域的几何形状是根据KL扩展的。通过在多级基础上检查随机场的投影来实现检测。可以根据本地和全球信息在适当的规范空间中量化异常。此外,可靠的假设检验是由可控的分布形成的,这些分布不需要事先对数据的概率分布的假设。仅需要协方差函数,这可以显着简单地估计。此外,这种方法允许基于随机向量的异常融合而不会丢失任何信息。该方法应用于亚马逊森林中森林砍伐和退化的重要问题。这是一个复杂的非单调过程,因为森林可以降解和恢复。通过当前掩盖算法难以消除的云的存在进一步使这个特殊的问题更加复杂。使用Sentinel 2的多光谱卫星数据,构造了多级过滤器,并将异常视为与森林初始状态的偏差。森林异常通过可靠的假设检验量化,并与诸如云覆盖之类的错误变化区分开。我们的方法显示了在矢量化的复合物中使用多个数据频段的优点,从而超过了基于标量的方法的能力,从而使更好的异常检测。
translated by 谷歌翻译
大语言模型的兴起的一个关注点是它们可能造成重大伤害的潜力,尤其是在偏见,淫秽,版权和私人信息方面进行预处理。新兴的道德方法试图过滤预处理的材料,但是这种方法是临时的,未能考虑到上下文。我们提供了一种以法律为基础的过滤方法,该方法直接解决了过滤材料的权衡。首先,我们收集并提供了一堆法律,这是一个256GB(以及增长)的开源英语法律和行政数据数据集,涵盖法院意见,合同,行政规则和立法记录。对一堆法律进行预处理可能有助于解决有望改善司法接触的法律任务。其次,我们提炼政府已制定的法律规范将有毒或私人内容限制为可行的研究人员,并讨论我们的数据集如何反映这些规范。第三,我们展示了一堆法律如何为研究人员提供直接从数据中学习此类过滤规则的机会,从而为基于模型的处理提供了令人兴奋的新研究方向。
translated by 谷歌翻译
机器学习(ML)可解释性技术可以揭示数据中的不良模式,这些模型模型开发以做出预测 - 一旦部署就会​​造成危害。但是,如何采取行动解决这些模式并不总是很清楚。在ML与人类计算机互动研究人员,医师和数据科学家之间的合作中,我们开发了GAM Changer,这是第一个互动系统,可帮助域专家和数据科学家轻松,负责任地编辑通用的添加剂模型(GAM)和修复有问题的模式。借助新颖的交互技术,我们的工具将可解释性置于行动中 - 使用户能够分析,验证和使模型行为与知识和价值相结合。医师已经开始使用我们的工具来调查和修复肺炎和败血症的风险预测模型,以及在不同领域工作的7位数据科学家的评估突出显示我们的工具易于使用,满足他们的模型编辑需求,并适合他们当前的工作流程。我们的工具以现代网络技术为基础,在用户的网络浏览器或计算笔记本电脑中本地运行,从而降低了使用的障碍。 GAM Changer可在以下公共演示链接中获得:https://interpret.ml/gam-changer。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译